dskjal
広告
広告

VRAM 8 GB で Qwen Image(Edit)を ComfyUI で実行する

カテゴリ:deeplearning

目次

概要

この記事では Q3_K_M 量子化(Qwen Image)と Q4_K_M(Qwen Image Edit)のモデルを使う。Block swap で巨大モデルを動かす方法は Qwen image x ブロックスワップ x 高速化Lora@ComfyUI x paperspace を参照。

GGUF モデルは VRAM から溢れるブロックを RAM に退避して処理を実行できる。Qwen Image Edit は Q4_K_M 以上でないとノイズが乗る。

ComfyUI のアップデート

ComfyUI をアップデートすると TextEncodeQwenImadeEditPlus が使えるようになる。このノードはテキストエンコーダーに画像を3枚まで入力できる。

Qwen-Image-Edit-2509 以降はこのノードを使う。

モデル

配置場所モデル
models/unetQwen_Image-Q3_K_M.gguf
models/unetQwen-Image-Edit-2509-Q4_K_M.gguf
models/text_encodersQwen2.5-VL-7B-Instruct-Q4_K_M.gguf
models/text_encodersmmproj-Qwen2.5-VL-7B-Instruct-Q8_0.gguf
models/vaeqwen_image_vae.safetensors
models/loralightx2v/Qwen-Image-Lightning

高速化 LoRA の Qwen-Image-Lightning は動作させるだけなら不要だが、モデルを常用するなら必須。Lightning LoRA は公式ワークフローでも Qwen-Image-Edit-2509 に lightx2v/Qwen-Image-Lightning を適用している。

そのほかの量子化

SVDQuant

ウェイトには外れ値がある。この外れ値が量子化の精度を低下させる。そこで、行列を外れ値の部分 W と量子化しやすい部分 X とに分け、元の行列を W + X で表現する。量子化しやすい X は4bit 量子化、外れ値の部分は SVD で分解し 16bit の精度で LoRA(rank=32)化する。

SVDQuant モデルは一般的な LoRA は適用できないことに注意

量子化比較

VRAM 24 GB で fp8/Q_8 を使うか、それ以下の VRAM で Q4_K_M を使うかの2択になる。

city96/Qwen-Image-gguf の例では、Q6_K 以上はほぼ BF16 と同じ。

Comparison of Qwen-Image-Edit GGUF models によると、Qwen Image Edit は Q4_K_M が最低ライン。

Nano Banana vs QWEN Image Edit 2509 bf16/fp8/lightning

この Reddit スレッドはモデルごとに生成条件が違うことに注意。

モデルステップ数CFG
bf16504.0
fp8 202.5
lightning41.0

Text encoder

指定方法

CLIPLoader (GGUF) で Qwen2.5-VL-7B-Instruct-Q4_K_M.gguf を指定する。mmproj-Qwen2.5-VL-7B-Instruct-Q8_0.gguf は自動的に読み込まれる。

それ以外の量子化

4 bit 以外の量子化は unsloth/Qwen2.5-VL-7B-Instruct-GGUF から入手できる。

FP8 は qwen_2.5_vl_7b_fp8_scaled.safetensors から入手できる。

ワークフロー

公式ワークフローの場所

公式ワークフローの場所

ワークフローは git pull でアップデートされない。requirements.txt でバージョン管理されているので pip を実行する必要がある。

git pull
.venv/Scripts/activate
python -m pip install -r requirements.txt

T2I・Qwen Image Q3_K_M・4 step 高速化 LoRA・CFG 1

Qwen Image

プロンプト:The illustration of a blonde girl wearing a blue kimono. She stands indoors in a Japanese house.

ネガティブプロンプト:なし

I2I・Qwen Image Edit Q4_K_M・4 step 高速化 LoRA・CFG 1

Qwen Image Edit

プロンプト:Change the color of her kimono to red and change her hair color to brown and change her eye color to green. Change her mouth to open and smile. Change her pose to make a heart with her hands in front of her chest.

ネガティブプロンプト:なし

Qwen Image Edit の Q3_K_M はそのまま使うと画質が悪い。以下の対処法ですこしましになる。

動作速度

高速化 LoRA を使わない場合、CFG ありの 20 step あたりが品質の許容範囲。CFG なしだったり steps が 20 未満だと画像がソフトになりやすい。

環境

T2I(Qwen Image Q3_K_M)・高速化 LoRA なし・CFG 2

解像度サンプル速度(s/it)20 step にかかる時間(min)VRAM 使用量(GB)RAM のピーク使用量(GB)
1152x  89617.567.529
  896x132821.077.529
1056x158426.097.729

T2I(Qwen Image Q3_K_M)・4 step 高速化 LoRA・CFG 1

1056x1584 で 4 step 高速化 LoRA を CFG 1 で実行すると 4 step に 1 分かかる。

VRAM 8 GB でも 1584 x 2048 の画像を生成でき、4 step 高速化 LoRA ・CFG 1 の場合 2 分かかる。

I2I(Qwen Image Edit Q4_K_M)・4 step 高速化 LoRA・解像度 1056x1584・CFG 1

解像度リスト

Qwen Image のネイティブ解像度は 1,328 x 1,328。

アスペクト比ピクセル数
1:11328 x 1328
16:91664 x   928
9:16  928 x 1664
4:31472 x 1104
3:41104 x 1472
3:21584 x 1056
2:31056 x 1584

拡張解像度

ここまでの解像度なら分裂せずに、アップスケールなしで生成できる可能性が高い。16:9 は分裂した。

アスペクト比ピクセル数
1:11792 x 1792
2:31472 x 2176
3:41584 x 2048

keypoint pose 編集

Qwen Image Edit 2509 は keypoint pose の入力にも対応している。

SD-WEBUI-OPENPOSE-EDITOR

blender

Blender で操作するモデル。Character bones that look like Openpose for blender _ Ver_99 Depth+Canny+Landmark+MediaPipeFace+finger+CameraPose

操作方法は Blender+ControlNetを用いたアニメーションの作り方 を参照。

プロンプト

Qwen Image(Edit)は生成される画像に多様性がない。なのでシードガチャは無意味で、適切なプロンプトの編集能力が重要になる。

プロンプトガイド

Qwen-Image-Edit-2509

画像の出典はすべて https://huggingface.co/Qwen/Qwen-Image-Edit-2509

多图結婚照(複数人のウェディングフォト・Multiple wedding photos)

输入2张图片。

input two images.

2枚の画像を入力。


根据这图1中女性和图2中男性,生成一組结婚照,并遵循以下描述:新郎穿着红色的中式马褂,新娘穿着精致的秀禾服,头戴金色凤冠。他们并肩站立在古老的朱红色宮墙前,背景是雕花的木窗。光线明亮柔和,构图对称,氛围喜庆而庄重。

Based on the woman in Figure 1 and the man in Figure 2, a wedding photo was generated with the following description: the groom wears a red Chinese-style jacket, and the bride wears an exquisite Xiuhe dress and a golden phoenix crown. They stand side by side before an ancient vermilion palace wall, with a carved wooden window in the background. The lighting is bright and soft, the composition is symmetrical, and the atmosphere is festive and solemn.

図1の女性と図2の男性に基づいて、以下の説明を含む結婚写真を生成してください。新郎は赤い中国風の上着を着ており、新婦は精巧な秀禾服と金色の鳳凰冠をかぶっています。二人は古代の朱色の宮殿の壁の前で並んで立っており、背景には彫刻が施された木製の窓があります。照明は明るく柔らかく、構図は対称的で、祝祭的で厳粛な雰囲気が漂っています。


根据这图 1 中女性和图 2 中的男性,生成一组结婚照,并遵循以下描述:一张温馨的韩式室内婚纱照,他们穿着简约而优雅的礼服。两人坐在一个明亮的窗边,背景是纯白色的墙壁和飘动的白纱帘,互相依偎,笑容甜美自然。光线非常柔和,色调是温暖的米白色,画面干净、纯粹、高级。

Generate a set of wedding photos based on the woman in Figure 1 and the man in Figure 2, with the following description: A warm, Korean-style indoor wedding photo. They are wearing simple yet elegant gowns. They sit by a bright window, against a backdrop of pure white walls and flowing white gauze curtains. They cuddle with each other, their smiles sweet and natural. The lighting is very soft, with a warm off-white hue. The image is clean, pure, and elegant.

図1の女性と図2の男性に基づいて、以下の説明を含む結婚写真を生成してください。温かみのある韓国風の室内での結婚式の写真です。二人はシンプルながらもエレガントなガウンを身にまとっています。真っ白な壁と流れるような白い紗のカーテンを背景に、明るい窓辺に座っています。二人は寄り添い合い、優しく自然な笑顔を浮かべています。照明は非常に柔らかく、温かみのあるオフホワイトの色合いです。画像は清潔感があり、純粋で、優雅です。

多图人物放置(複数人の人物配置・Multiple image character placement)

生成 1 张图像

a generated image

生成された画像


图2中的女生在图1躺椅上晒太阳

The woman in Figure 2 is sunbathing on the lounge chair in Figure 1.

図 2 の少女は、図 1 のラウンジチェアで日光浴をしています。


图2中的女生在图1的沙发上喝咖啡

The woman in Figure 2 is drinking coffee on the sofa in Figure 1.

図2の女の子は図1のソファでコーヒーを飲んでいます。

多图模特商品展示(モデルと商品の合成・Multi-image model product display)

图2中的女生肩膀上挂着图1中的包

The woman in picture 2 is wearing the bag in picture 1 on her shoulder.

写真2の女の子は写真1のバッグを肩にかけています。


图1中的女生站在图2的车旁边

The woman in Figure 1 is standing next to the car in Figure 2.

図 1 の女の子は、図 2 の車の隣に立っています。

多图关键点姿势(キーポイントポーズでポーズ指定・Multi-image keypoint pose)

图 2 中的女生改变为图 1 中的姿势。

The woman in Figure 2 changes to the posture in Figure 1.

図2の女の子の姿勢を図1の姿勢に変えてください。


图 2 中的女生改变为图 1 的姿势,并且背景换为故宮,并且把帽子拿在手上

The woman in Figure 2 changes to the pose in Figure 1, with the background changed to the old palace, and holds the hat in her hand.

図2の少女の姿勢を図1のポーズに変え、背景を昔の宮殿に変え、手に帽子を持たせてください。

多图人物放置(複数人の人物配置・Multiple image character placement)

输入3张图片。

input two images.

3枚の画像を入力。


图 1 中的女孩和

图 2 中的女孩在

图 3 的沙发上喝咖啡

The woman in Figure 1 and the woman in Figure 2 drinking coffee on the sofa in Figure 3.

図 1 の女の子と図 2 の女の子が図 3 のソファでコーヒーを飲んでいます。

多图关键点穿衣姿势(姿勢と服の変更・Multiple key points of dressing posture)

图 1 中的女孩穿着

图 2 中的黑色裙子按

图 3 的姿势坐下

The woman in Figure 1 is wearing the black skirt in Figure 2 and sitting in the position shown in Figure 3.

図 1 の女の子は、図 2 の黒いスカートを着用し、図 3 に示す姿勢で座っています。

多图模特商品展示(モデルと商品の合成・Multi-image model product display)

图 3 中的女孩带着图 2 中的包包

和图 1 的项链

The woman in Figure 3 is wearing the bag in Figure 2 and the necklace in Figure 1.

図 3 の少女は、図 2 のバッグと図 1 のネックレスを付けています。

形象照片生成(イメージ写真生成・Image photo generation)

输入图像

input image

入力画像


证件照(証明写真・ID photo)

修改为蓝底证件照,人物穿上白色衬衫,黑色西装,打着条纹领带

Modified to a blue background ID photo, with the person wearing a white shirt, black suit, and striped tie.

白いシャツ、黒いスーツ、ストライプのネクタイを着用した、青い背景の身分証明書用写真に変更してください。

形象照(イメージ写真・Image photo)

人物穿上白色衬衫,灰色西装,打着条纹领带,一只手摸着领带。浅色背景。

The man is wearing a white shirt, a gray suit, and a striped tie, with one hand touching the tie. Light background.

男性は白いシャツ、グレーのスーツ、ストライプのネクタイを着用し、片手でネクタイに触れている。背景は明るい。

生活照(生活写真・Life photo)

人物穿着粗笔刷字体的“千问图像"的黑色卫衣,依靠在护栏边,阳光照在发丝上,身后是大桥和海。

The figure is wearing a black sweatshirt with the words "千问图像" emblazoned on it in thick brushstrokes. He leans against a guardrail, sunlight shining on his hair, with a bridge and the sea behind him.

人物は太い筆致で「千问图像」と書かれた黒いスウェットシャツを着ている。ガードレールに寄りかかり、髪に陽光が照りつけ、背後には橋と海が広がっている。


千问图像=Qwen Image

姿势编辑(ポーズ変更・Pose Editing)

她双手举起,手掌朝向镜头,手指张开,做出一个俏皮的姿势

She raised her hands, palms facing the camera, fingers spread, in a playful gesture.

彼女は両手をあげ、手のひらをカメラに向けて指を広げ、遊び心のある仕草をした。


她两只手摆出一个爱心的形状

She made a heart shape with her hands.

彼女は手でハートの形を作りました。


她两只手拿起一个黑板,上面写着“欢迎来到云栖大会"

She held up a blackboard with the words "欢迎来到云栖大会" written on it.

彼女は「欢迎来到云栖大会」と書かれた黒板を掲げた。


欢迎来到云栖大会=Welcome to the Yunqi Conference・云栖大会(Yunqi Conference)へようこそ

云栖大会(Yunqi Conference)は、阿里巴巴集団(Alibaba Group)が主催する、中国を代表するクラウドコンピューティングと人工知能(AI)を中心としたテクノロジーの年間イベント。

表情包生成(ミーム生成・Emoticon generation)

Prompt模板:改成开心的表情,一只手指向前方。下方写着艺术字"我支持通义千问"

Prompt template: Change to a happy expression with one finger pointing forward. Below it is the artistic text "我支持通义千问"

プロンプトテンプレート:指を1本前に突き出した、幸せそうな表情に変身。その下に「我支持通义千问」というアートテキストが書かれている。


通义千问=LLM の Qwen。

我支持通义千问=Qwen を応援

虚拟场景生成(仮想シーンの生成・Virtual scene generation)

这个男人拿着黑色的马克笔四分之三面相镜头。他身后的玻璃板上写着"一、 Qwen-lmage 的技术路线:探索视觉生成基础模型的极限,开创理解与生成一体化的未来。二、 Qwen-lmage 的模型特色:1 、复杂文字渲染。支持中英渲染、自动布局; 2 、精准图像编辑。支持文字编辑、物体增减、风格变换。三、 Qwen-lmage 的未来愿景:赋能专业内容创作、助力生成式 AI 发展。"

The man holds a black marker, three-quarter-length in front of the camera. Written on the glass panel behind him are the following: "I. Qwen-lmage's Technical Roadmap: Exploring the Limits of Basic Visual Generation Models, Creating a Future of Integrated Understanding and Generation. II. Qwen-lmage's Model Features: 1. Complex Text Rendering: Supports Chinese and English rendering, and automatic layout; 2. Precise Image Editing: Supports text editing, object addition and subtraction, and style transformation. III. Qwen-lmage's Future Vision: Empowering Professional Content Creation and Boosting the Development of Generative AI."

男はカメラの前に、縦に3/4ほどの黒いマーカーを持っている。背後のガラス板には、次のように書かれている。「I. Qwen-lmageの技術ロードマップ:基本的な画像生成モデルの限界を探り、統合的な理解と生成の未来を創造する。II. Qwen-lmageのモデル機能:1. 複雑なテキストレンダリング:中国語と英語のレンダリング、自動レイアウトをサポート。2. 精密な画像編集:テキスト編集、オブジェクトの追加と削除、スタイル変換をサポート。III. Qwen-lmageの将来ビジョン:プロフェッショナルなコンテンツ作成を支援し、生成AIの発展を促進する。」

照片上色(彩色・Coloring)

根据内容智能上色,使图像更生动

Intelligent coloring based on content to make images more vivid.

コンテンツに基づいたインテリジェントなカラーリングにより、画像をより鮮やかに表現してください。

照片修复(写真修復・Photo Restoration)

何故かプロンプトが英語。

修复并为老照片上色。

Restore and colorize the old photo.

古い写真の修復し、カラー化してください。

文创生成(クリエイティブ生成・Cultural and Creative Generation)

让这只吉祥物,坐在月亮下(用白色背景上的浅灰弯月轮廓表示),抱着吉他,周围漂浮着小星星和诗句气泡,如 "Be Kind ”。

The mascot is depicted sitting under the moon (represented by a light grey crescent moon outline on a white background) holding a guitar, with little stars and poetry bubbles floating around him, such as "Be Kind".

このマスコットは月(白い背景に薄い灰色の三日月の輪郭で表されている)の下に座ってギターを抱えており、その周りに小さな星や「Be Kind(親切に)」などの詩の吹き出しが浮かんでいる姿で描かれている。


一个起逼真的 1 / 7 比例角色楼型,设计为商业产品成品,放置在一台带有白色键盘的iMac 电脑桌上。模型站在一个干净、圓形的透明亚克力底座上,没有标签或文宇。专业的摄影棚灯光突显了雕刻细节。在背景的 iMac 屏幕上,展示同一模型的 ZBrush建模过程。在模型旁边,放置一个包装盒,前面带有透明窗户,仅显示内部透明塑料壳,其高度略高于模型,尺寸合理以容纳摸型。

A realistic 1/7 scale character model, designed as a commercial product, sits on an iMac computer desk with a white keyboard. The model stands on a clean, round, clear acrylic base, devoid of labels or text. Professional studio lighting accentuates the sculpted details. On the iMac screen in the background, the ZBrush modeling process for the same model is displayed. Next to the model sits a packaging box with a clear window in the front, revealing only the transparent plastic shell within. It stands slightly taller than the model and is sized appropriately to accommodate it.

市販品としてデザインされた、リアルな1/7スケールのキャラクターモデルが、白いキーボードが置かれたiMacのデスクに置かれています。モデルは、ラベルや文字のない、すっきりとした円形の透明アクリル台座の上に立っています。プロ仕様のスタジオ照明が、彫刻されたディテールを際立たせています。背景のiMacの画面には、同じモデルのZBrushモデリングプロセスが表示されています。モデルの隣には、前面に透明な窓があり、中の透明なプラスチックシェルだけが見える梱包箱が置かれています。箱はモデルよりわずかに高く、モデルが収まるサイズになっています。


将这个图案印在一件 T 恤和一个手提紙袋上。一个女模特正在展示这些物品。这个女生还着一顶鸭舌帽,帽子上写着“Be kind"。

Print this design on a T-shirt and a tote bag. A female model displays these items. The woman also wears a baseball cap with the words "Be kind" written on it.

このデザインをTシャツとトートバッグにプリントしてください。女性モデルがこれらのアイテムを身につけています。また、女性は「Be kind」と書かれた野球帽をかぶっています。

商品宣传图编辑(宣材画像編集・Product promotional images editing)

把这个空调放在客厅,沙发旁边

Put this air conditioner in the living room, next to the sofa.

このエアコンをリビングルームのソファの隣に置いてください。


在空调出风口增加雾气,一直到沙发上,并且增加绿叶。

Add mist to the air-conditioning outlet, all the way to the sofa, and add green leaves.

エアコンの吹き出し口からソファーまでミストを吹きかけ、緑の葉を添えます。


在上方增加白色的手写体"自然新风畅享呼吸"

Add white handwriting "Enjoy the natural fresh air" at the top.

上部に白い手書きの「自然の新鮮な空気をお楽しみください」を追加します。

材质编辑(質感編集・Texture Edit)

转换为蓝宝石,蓝色部分是深蓝宝石材质,白色部分是浅蓝宝石材质。

Converted to sapphire, the blue part is dark sapphire material, and the white part is light sapphire material.

青い部分をダークサファイア素材、白い部分をライトサファイア素材に質感を変換してください。


转换为精致的刺绣,刺有紫色的花朵

Transformed into delicate embroidery featuring purple flowers.

紫色の花をあしらった繊細な刺繍に変換。


精致的珐琅材质,蓝色区域变成深蓝,白色区域变成金色

Delicate enamel material, the blue area turns dark blue and the white area turns gold

繊細なエナメル素材で、青い部分は濃い青に、白い部分は金色に変えてください。


制作一个精致的项链。光泽闪耀。浅色背景。

Makes a delicate necklace. Lustrous and sparkling. Light background.

繊細なネックレスを作ります。光沢があり、キラキラと輝きます。明るい背景です。


梢致牛皮包,呈现柔和米白色调,表面带有细腻珠光涂层,正面中央绣着这个图案。浅色背景。

Fine cowhide bag in a soft off-white hue with a subtle pearlescent finish, featuring this motif embroidered in the center of the front. Light background.

柔らかなオフホワイトの色合いに、ほのかなパール仕上げを施した上質な牛革バッグ。フロント中央にこのモチーフが刺繍されています。明るい背景です。


一个极致奢华的未来科技产品包装盒,采用哑光深黑碳纤维材质与拉丝香槟金金属边框,中央立体浮雕着这个图标。

An extremely luxurious packaging box for futuristic technology products, made of matte deep black carbon fiber and brushed champagne gold metal frame, with this icon embossed in the center.

未来のテクノロジー製品のための非常に豪華なパッケージボックス。マット仕上げのディープブラックカーボンファイバーとブラシ仕上げのシャンパンゴールドの金属フレームで作られており、中央にこのアイコンがエンボス加工されています。

字体类型编辑(フォントタイプ編集・Font Type Edit)

字体类型编辑prompt模板:把 "Qwen-Image" 换成黑色的字体 XXX 字体

Font type editing prompt template: Change "Qwen-Image" to black font XXX font.

フォントタイプ編集プロンプトテンプレート: 「Qwen-Image」を黒フォントXXXフォントに変更してください。

字体颜色编辑(フォント色編集・Font Color Edit)

字体颜色编辑prompt模板:把 "Qwen-Image" 换成 XXX 色

Font color editing prompt template: Change "Qwen-Image" to XXX color.

フォントカラー編集プロンプトテンプレート: 「Qwen-Image」をXXX色に変更してください。

字体材质编辑(フォントテクスチャ編集・Font Texture Edit)

字体材质编辑prompt模板:将 "Qwen-Image" 材质换成 XXX

Font material editing prompt template: Change the "Qwen-Image" material to XXX.

フォントの質感編集プロンプトテンプレート:「Qwen-Image」の質感をXXXに変更してください。

书法文字编辑(手書き文字編集・Calligraphy editing)

文生图效果

Generated by Text-to-image generation

t2i 生成した文書


用户手动增加的错字框

Typo box manually added by the user.

タイプミスボックスはユーザーが手動で追加する必要がある。


把红框的字改成“稽",蓝色框的字改成“契"

Change the red-framed characters to "稽" and the blue-framed characters to "契".

赤枠の文字を「稽」、青枠の文字を「契」に変更します。

场景文字编辑(背景文字編集・Scene Text Editing)

用户手动涂抹的区域

Areas manually painted by the user.

修正箇所はユーザーが手動で追加する必要がある。


将试管上的红色标签替换为蓝色墨水书写的“血样A”字样,该标签需居中放置于试管上,且字体风格需与现有手写标签保持一致。

Replace the red mask on the test tube with the text "血样A," positioned centrally on the tube, in blue ink, matching the style of the existing handwritten labels.

試験管の赤いマスク部分を、既存の手書きラベルのスタイルに合わせて、試験管の中央に青いインクで「血样A」というテキストに置き換えてください。


在玻璃试管上用蓝色墨水添加文字“血样A”,位置靠近顶部,水平居中,字体清晰易辨且与现有标签风格一致。

Add the text "Blood Sample A" on the glass test tube in blue ink, positioned near the top, aligned horizontally, and written in a clear, legible font matching the style of existing labels.

ガラス試験管に青いインクで「血液サンプル A」というテキストを追加します。テキストは上部近くに水平に揃え、既存のラベルのスタイルに一致する明瞭で読みやすいフォントで書かれています。

海报编辑(ポスター編集・Poster Editing)

把“ 2025 云栖大会"

改成卡通字体

Changed "2025 云栖大会" to a cartoon font.

「2025 云栖大会」を漫画フォントに変更してください。


把透明的立方体改成卡通风格,增加拟人化表情。

Change the transparent cube into a cartoon style and add anthropomorphic expressions.

透明な立方体を漫画風に変えて擬人化した表現を加えます。


在草坪上增加一个小男孩和小女孩,共同拿着拟人化的立方体

Add a little boy and girl holding an anthropomorphic cube on the lawn

芝生の上に擬人化された立方体を持った小さな男の子と女の子を追加してください。

深度图控制(深度マップ制御・Depth Map Control)

生成一张图像,符合图 1 所勾勒出的深度图,并遵循以下描述:在一条街边的小巷中停放着一辆蓝色的自行车,背景中有几株从石中长出来的

Generate an image that matches the depth map outlined in Figure 1 and follows the following description: a blue bicycle is parked in an alleyway next to a street, and there are several plants growing out of the stone in the background.

図 1 に示されている深度マップと一致し、次の説明に従う画像を生成してください。道路の隣の路地に青い自転車が駐車されており、背景の石からいくつかの植物が生えています。


生成一张图像,符合图 1 所勾勒出的深度图,井遵循以下描述:一辆红色的破旧的自行车停在一条泥泞的小路上,背景是茂密的原林

Generate an image that matches the depth map outlined in Figure 1 and follows the following description: a red, worn-out bicycle parked on a muddy path with a dense forest in the background.

図 1 に示されている深度マップと一致し、背景の深い森のぬかるんだ道に赤い使い古しの自転車が停まっているという説明に従う画像を生成してください。

关键点控制(キーポイント制御・Key Point Control)

生成一张图像,符合图 1 所勾勒出的人体姿态,并遵循以下描述:一位身穿着汉服的中国美女,在雨中撑着油纸伞,背景是苏州园林。

Generate an image that matches the human posture outlined in Figure 1 and follows the following description: a beautiful Chinese woman wearing Hanfu, holding an oil-paper umbrella in the rain, with Suzhou gardens in the background.

図 1 に示されている人間の姿勢と一致し、以下の説明に従う画像を生成してください。蘇州古典園林を背景に、雨の中で油紙の傘を持った漢服を着た美しい中国人女性。


生成一张图像,符合图 1 所勾勒出的人体姿态,并遵循以下描述:一位男生,站在地铁站台上,他头上戴着一顶棒球帽,穿着 T 恤和牛仔裤。背后是飞驰而过的列车。

Generate an image that matches the human pose outlined in Figure 1 and follows the following description: A man is standing on a subway platform. He is wearing a baseball cap, a T-shirt, and jeans. A train is passing by in the background.

図1に示されている人物のポーズに一致し、以下の説明に従う画像を生成してください。男性が地下鉄のプラットフォームに立っています。彼は野球帽、Tシャツ、ジーンズを着用しています。背景には電車が通過しています。

草图控制(スケッチ制御・Sketch Control)

生成一张图像,符合图 1 所勾勒出的精致形状,并遵循以下描述:一位年轻的女子在阳光明媚的日子里微笑着,她戴着一副棕色的圆形太阳镜,镜框上有豹纹图案。她的头发被整齐地盘起,耳朵上佩戴着珍珠耳环,脖子上围着一条带有白色星星图案的深蓝色围巾,穿着一件黑色皮夹克。

Generate an image that fits the delicate shape outlined in Figure 1 and follows the following description: A young woman is smiling on a sunny day. She is wearing a pair of brown, round sunglasses with leopard print frames. Her hair is neatly tied up, and she has pearl earrings in her ears. She has a dark blue scarf with white stars around her neck and a black leather jacket.

図1に示されている繊細な形状にフィットし、以下の説明に従う画像を作成してください。晴れた日に、若い女性が微笑んでいます。彼女はヒョウ柄のフレームが付いた茶色の丸いサングラスをかけています。髪はきちんとまとめられており、耳には真珠のイヤリングをしています。首には白い星がついた濃紺のスカーフを巻き、黒いレザージャケットを着ています。


生成一张图像,符合图 1 所勾勒出的精致形状,并遵循以下描述:一位年老的老人朝着镜头微笑,他的脸上布满皱纹,头发在风中凌乱,戴着一幅圆框的老花镜。脖子上戴着一条破旧的红色围巾,上面有星星图案。穿着一件棉衣。

Generate an image that fits the delicate shape outlined in Figure 1 and follows the following description: An elderly man smiles at the camera. His face is wrinkled, his hair is messy in the wind, and he wears round-framed reading glasses. Around his neck, he wears a worn red scarf with a star pattern on it and a cotton coat.

図1に示す繊細な形状に適合し、以下の説明に従う画像を生成してください。高齢の男性がカメラに向かって微笑んでいます。顔にはしわが寄っており、髪は風になびき乱れ、丸縁の老眼鏡をかけています。首には星柄の使い古した赤いスカーフを巻き、綿のコートを着ています。

Dynamic Prompt

ComfyUI はデフォルトで Dynamic Prompt が使える。プロンプトに {A|B|C} と入力すると、実行するごとに A, B, C がランダムに選択される。

年齢

child, girl, woman, mature woman の4段階制御。years old 指定だと若干変化がつけられる。

年齢の変化

画風

Mask Editor

画像を読み込むノードの画像を右クリックして「Open in MaskEditor」で簡易ペイント機能が使える。以下の機能がある。編集レイヤーの切り替えは左のタブから行う。右下のレイヤーをクリックしても編集レイヤーは変更できない。

作例

設定は 4 step 高速化 LoRA・CFG 1

The illustration of a chibi girl sitting in a chair eating a piece of pizza. She is saying

The illustration of a chibi girl sitting in a chair eating a piece of pizza. She is saying "This is fine!" in a speech bubble. There is a table and a window in the indoor room.

Two girls are embracing each other while taking a selfie in the noon park.The left girl has blonde hair with a hair clip and blue eyes and closed mouth. The right girl has black long hair and red eyes and open mouth. They are wearing school uniforms and looking at smartphone. Kyoto Animation art style.

Two girls are embracing each other while taking a selfie in the noon park.The left girl has blonde hair with a hair clip and blue eyes and closed mouth. The right girl has black long hair and red eyes and open mouth. They are wearing school uniforms and looking at smartphone. Kyoto Animation art style.

The illustration of the full length portrait of a standing girl with her arms at sides on a pure white background. She has large breasts. She is wearing a navy blazer, white collared shirt, a red string ribbon, white socks, dark brown loafers and a gingham pleated mini skirt. Pure white background.

Convert the character illustration into a turnaround sheet. Create three different full-body poses on a pure white background: left profile view on the left, back view on the middle, and right profile view on the right.

元のプロンプトは The character illustration on the far left will be converted into a turnaround sheet. Create four different full-body poses on a pure white background: front view on the far left, left profile view on the middle left, back view on the middle right, and right profile view on the far right. 出典:https://x.com/tori29umai/status/1959502270816772591


Qwen Image Edit
元画像をテキストエンコーダーと K サンプラーの両方に入力
Kサンプラーのノイズ除去 0.8
プロンプト:Remove the hair red and black ornament on her upper head.
Remove the waist red and black ornament on her left and right waist.
Do not change any irrelevant parts.


Qwen Image Edit
ノイズ除去:0.8
プロンプト:Remove all text from the image, e.g., "SAMPLE" or "無断転載禁止."
Do not change any irrelevant parts.


Qwen Image Edit 2509
ノイズ除去:1
プロンプト:The woman in Figure 1 is lying in the position shown in Figure 2.

手について

手がうまく描けない最大の理由は解像度の不足だ。解像度が不足している場合、Qwen Image Edit や Nano Banana でも直せない。

このような修正は Detailer を使ったワークフローが有効だ。

  1. 手の部分を検出
  2. 手の部分を切り出し
  3. アップスケール
  4. i2i
  5. 縮小して張り付け

解像度が足りている場合のプロンプト

手全体を描きなおさせる場合
Fill the red area in Figure 1 and draw a hand. Don't change the other area.
指1本のみ描き直させる場合
Fill the red area in Figure 1 and draw only a finger. Don't change the other area.

外部リンク

【VRAM 6GBで動く】Redditで話題!Qwen Imageを低スペックPCで動かすための全手順とトラブル解決法


広告
広告

カテゴリ